强化学习框架：问题

Back to Home

01. 简介
02. 设置 - 回顾
03. 阶段性任务与连续性任务
04. 练习：知识测验
05. 练习：阶段性或连续性？
06. 奖励假设
07. 目标和奖励（第 1 部分）
08. 目标和奖励（第 2 部分）
09. 练习：目标和奖励
10. 累积奖励
11. 折扣回报
12. 练习：杆平衡
13. MDP（第 1 部分）
14. MDP（第 2 部分）
15. 练习：一步动态特性（第 1 部分）
16. 练习：一步动态特性（第 2 部分）
17. MDP（第 3 部分）
18. 有限 MDP
19. 总结

Back to Home

01. 简介

简介

这节课讲解的是该教科书第 3 章节（尤其是第 3.1-3.3 部分）的内容。

udacimak v1.4.0